图片url解析正确,但爬虫无法下载图片 |
您所在的位置:网站首页 › 爬虫 下载图片 › 图片url解析正确,但爬虫无法下载图片 |
图片url解析正确,但爬虫无法下载图片
爬虫错误debug解注释DOWNLOADER_MIDDLEWARESHTTP status code is not handled or not allowed使用xpath复制的网页元素路径却下载不到图片网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403网页图片设置了在显示图片前先显示一个动态图
参考博客链接:github爬虫代码
爬虫错误debug
解注释DOWNLOADER_MIDDLEWARES
# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
'imgspider.middlewares.ImgspiderDownloaderMiddleware': 543,
}
如果你不是使用scrapy startproject yourspider这个命令创建项目的话,项目中可能不会有middlewares.py文件,必须有这个文件再在settings.py中进行设置才生效 如果你使用pip install安装可能漏装Pillow这个库记得补上 HTTP status code is not handled or not allowed注意查看网页地址是否正确 如下com和article中间多了/ INFO: Ignoring response : HTTP status code is not handled or not allowed 使用xpath复制的网页元素路径却下载不到图片这种情况有多种 目前我只遇到两种 网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403这种情况你得研究反反爬虫的技术了 网上一般说是VPN+代理IP 网页图片设置了在显示图片前先显示一个动态图这种情况打开网页的源代码会看到 src属性指定的是一张动态图片,而data-src指定才是真正的图片地址,使用右键检查src指定的也是图片地址但爬到的是gif图片,把属性改成data-src就解决了 参考博客链接:https://blog.csdn.net/Wfarmer/article/details/104990791 github爬虫代码[email protected]:YuanJZhang/Imgspider.git |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |